CVPR2018|旷视科技Face++推出语义分割创新模型——判别特征网络（DFN）

作者：手机用户2502922415_737 | 来源：互联网 | 2024-10-23 18:11

全球计算机视觉顶会CVPR2018（ConferenceonComputerVisionandPatternRecognition，即IEEE国际计算机

全球计算机视觉顶会 CVPR 2018 &＃xff08;Conference on Computer Vision and Pattern Recognition&＃xff0c;即IEEE国际计算机视觉与模式识别会议&＃xff09;将于6月18日至22日在美国盐湖城举行。作为大会钻石赞助商&＃xff0c;旷视科技Face&＃43;&＃43;研究院也将在孙剑博士的带领下重磅出席此次盛会。而在盛会召开之前&＃xff0c;旷视将针对 CVPR 2018 收录论文集中进行系列解读。

论文名称&＃xff1a;Learning a Discriminative Feature Network for Semantic Segmentation

论文链接&＃xff1a;https://arxiv.org/abs/1804.09337

导语
设计思想
网络架构
- Smooth Network
- Border Network
- 网络结构
实验结果
结论
参考文献

导语

在大量的计算机视觉应用中&＃xff0c;语义分割是一项不可或缺的底层技术。旷视科技Face&＃43;&＃43;近期发表的一篇 CVPR 2018 收录论文《Learning a Discriminative Feature Network for Semantic Segmentation 》提出判别特征网络 DFN&＃xff0c;有效解决了语义分割的两个基本问题&＃xff0c;显著提高了其精度&＃xff0c;可以帮助机器之眼更好地理解复杂的图像和场景&＃xff0c;解析静态或动态人体及其他物体&＃xff0c;有助于从根本上推动自动驾驶、手机影像、医疗影像、无人零售、物流安防等 AI 驱动型产业的普及与发展。

设计思想

本文提出的判别特征网络&＃xff08;Discriminative Feature Network/DFN&＃xff09;包含两个子网络 Smooth Network 和 Border Network&＃xff0c;它有效解决了绝大多数现有语义分割方法面临的类内不一致&＃xff08;intra-class inconsistency&＃xff09;与类间无差别&＃xff08;inter-class indistinction&＃xff09;问题。

具体而言&＃xff0c;为应对类内不一致问题&＃xff0c;作者专门设计带有通道注意力模块&＃xff08;Channel Attention Block/CAB&＃xff09;和全局平均池化的 Smooth Network 以选择更具判别力的特征&＃xff1b;而 Border Network 则借助多层语义边界监督区分边界两边的特征。

伴随着以全卷积网络&＃xff08;Fully Convolutional Network/FCN&＃xff09;为代表的卷积神经网络的新近发展&＃xff0c;很多工作成效显著。但是&＃xff0c;上述网络学习的特征经常存在判别性不强&＃xff0c;难以区分的问题&＃xff0c;表现为&＃xff1a;1) 标签相同但外观不同的图像块&＃xff0c;称之为类内不一致&＃xff0c;如图 1 第一行所示&＃xff1b;2) 两个相邻的图像块&＃xff0c;标签不同但外观相似&＃xff0c;称之为类间无差别&＃xff0c;如图 1 第二行所示。

图 1&＃xff1a;棘手的语义分割实例。第二列是 FCN 模型的输出&＃xff1b;第三列是本文方法的输出。第一行中&＃xff0c;图中牛的左下角被识别为马&＃xff0c;这属于类内不一致问题。第二行中&＃xff0c;电脑主机上的蓝光及黑色机壳与显示器相似&＃xff0c;因此难以区分&＃xff0c;这属于类间无差别问题。

为解决上述两个挑战&＃xff0c;本文从一个更加宏观的角度重新思考语义分割&＃xff0c;将其看作一项把一致的语义标签分配给一类物体而不是每个单一像素的任务。这就需要把每个类别的像素看作一个整体&＃xff0c;进而同时兼顾类内一致&＃xff08;intra-class consistency&＃xff09;与类间差别&＃xff08;inter-class variation&＃xff09;。这意味任务需要判别特征&＃xff0c;所以本文提出一个全新的判别特征网络(DFN) 以学习特征表征。

DFN 有两个组件&＃xff1a;Smooth Network 和 Border Network。Smooth Network 用来解决类内不一致问题&＃xff0c;从而需要学习一个鲁棒特征表征&＃xff0c;为此本文主要考虑两个关键因素。一方面&＃xff0c;需要多尺度和全局语境特征编码局部和全局信息。比如&＃xff0c;由于缺乏足够的语境信息&＃xff0c;图 1(a) 中的白色小图像块经常无法预测正确的类别&＃xff1b;另一方面&＃xff0c;随着引入多尺度语境&＃xff0c;对于一定尺度的物体来说&＃xff0c;特征具有不同程度的判别力&＃xff0c;其中一些可能预测假标签。因此&＃xff0c;有必要选择高效的判别特征。正是出于上述两方面的考虑&＃xff0c;Smooth Network 展现为 U 形结构&＃xff0c;以抓取不同尺度的语境信息&＃xff0c;并通过全局平均池化抓取全局语境。此外&＃xff0c;本文还提出通道注意力模块(CAB)&＃xff0c;利用高层特征逐阶段地指导低层特征的选择。

Border Network 负责区分外观相似但标签不同的相邻图像块。大多数现有方法把语义分割看作一种密集识别问题&＃xff0c;无法明确建模类间关系。以图 1(d) 为例&＃xff0c;如果越来越多的全局语境整合进分类过程&＃xff0c;相邻于显示器的电脑主机由于外观相似很容易被误认是显示器。因此&＃xff0c;明确地使用语义边界指导特征的学习非常重要&＃xff0c;这可以增强特征两边的变化。训练时&＃xff0c;作者把语义边界损失整合进 Border Network 以学习判别特征&＃xff0c;增大类间差别。

网络架构

有关DFN的网络架构&＃xff0c;首先详述它的两个组件 Smooth Network 和 Border Network&＃xff1b;接着&＃xff0c;具体解释两者如何实现类内一致和类间差别&＃xff1b;最后描述 DFN 完整的编码器-解码器网络架构。

图 2&＃xff1a;判别特征网络概览。&＃xff08;a&＃xff09;网络架构。&＃xff08;b&＃xff09;优化残差模块&＃xff08;Refinement Residual Block/RRB&＃xff09;的组件。&＃xff08;c&＃xff09;通道注意力模块&＃xff08;CAB&＃xff09;的组件。红线、蓝线分别表征上采样和下采样算子。绿线仅是信息传递路径&＃xff0c;不改变特征图的大小。

Smooth Network

绝大多数现有方法无法保证正确预测每个图像块的类别&＃xff0c;尤其当图像块属于较大区域和复杂场景之时&＃xff1b;这种类内不一致问题的主要原因在于语境的缺失&＃xff0c;为此作者提出带有全局平均池化的全局语境。但是&＃xff0c;全局语境只具有高语境信息&＃xff0c;无助于复原空间信息&＃xff0c;作者需要多尺度感受野和语境来优化空间信息&＃xff0c;正如大多数现有方法那样。然而&＃xff0c;由于不同尺度的感受野其判别力也各不相同&＃xff0c;从而造成不一致的结果&＃xff0c;从而需要选择更具判别力的特征预测某个特定类别的统一语义标签。

具体而言&＃xff0c;本文使用 ResNet 作为基础识别模型&＃xff1b;根据特征图大小&＃xff0c;该模型可划分为 5 个阶段。据观察&＃xff0c;不同阶段识别能力各不相同&＃xff0c;一致性表现也各不相同。在低级阶段&＃xff0c;网络编码更精细的空间信息&＃xff0c;但是由于缺乏空间语境指导和感受野较小&＃xff0c;其语义一致性表现欠佳&＃xff1b;而在高级阶段&＃xff0c;由于感受野较大&＃xff0c;语义一致性表现较佳&＃xff0c;但是预测的空间信息较粗糙。总体而言&＃xff0c;低级阶段有着更精确的空间预测&＃xff0c;而高级阶段有着更精确的语义预测。基于这一观察&＃xff0c;本文提出 Smooth Network 以整合两者的优势&＃xff0c;利用高级阶段的一致性指导低级阶段获得最优的预测。

图 3&＃xff1a;通道注意力模块图示。在&＃xff08;a&＃xff09;中&＃xff0c;黄色模块表征低级阶段的特征&＃xff0c;红色模块表征高级阶段的特征。作者结合相邻阶段的特征以计算权重向量&＃xff0c;从而更新低级阶段特征图的权重。较深色模块表征高权重值。&＃xff08;b&＃xff09;是第 4 阶段通道注意力模块的真实注意力值向量。蓝色越深&＃xff0c;表征权重值越大。

当下流行的语义分割架构主要有两种 style&＃xff0c;一种是 Backbone&＃xff0c;如 PSPNet 和 Deeplab v3&＃xff1b;另一种是 Encoder-Decoder&＃xff0c;比如 RefineNet 和全局卷积网络。但上述架构并不完备&＃xff0c;为此&＃xff0c;本文首先嵌入一个全局平均池化层把 U 形架构扩展为 V 形架构&＃xff0c;为网络引入最强的一致性约束作为指导&＃xff1b;此外&＃xff0c;本文提出通道注意力模块以优化一致性&＃xff0c;如图 2(c) 所示。该设计结合相邻阶段的特征以计算通道注意力向量&＃xff08;图 3(b)&＃xff09;。高级阶段的特征给出一个强大的一致性指导&＃xff0c;而低级阶段的特征给出特征的不同判别信息&＃xff0c;从而通道注意力向量可以选择判别特征。

通道注意力模块&＃xff1a;CAB 的设计目的是改变每一阶段的特征权重以优化一致性&＃xff0c;如图 3 所示。在 FCN 架构中&＃xff0c;卷积算子输出一个 score map&＃xff0c;给出每一类别在每个像素上的概率。其实际意义在于暗示了不同通道的权重是平等的。然而&＃xff0c;如上所述&＃xff0c;不同阶段的特征判别力不同&＃xff0c;造成预测的一致性各不相同。为实现类内一致预测&＃xff0c;应该提取判别特征&＃xff0c;并抑制非判别特征&＃xff0c;从而可以逐阶段地获取判别特征以实现预测类内一致。

优化残差模块&＃xff1a;特征网络中每一阶段的特征图全都经过 RRB&＃xff0c;如图 2(b) 所示。该模块的第 1 个组件是 1 x 1 卷积层&＃xff0c;作者用它把通道数量统一为 512。同时&＃xff0c;它可以整合所有通道的信息。接着是一个基本的残差模块&＃xff0c;它可以优化特征图。此外&＃xff0c;受 ResNet 启发&＃xff0c;该模块还可以强化每一阶段的识别能力。

Border Network

在语义分割任务中&＃xff0c;预测经常混淆外观相似的不同类别&＃xff0c;尤其当它们在空间上相近之时&＃xff0c;因此需要加大特征的差别。出于这一考虑&＃xff0c;本文采用语义边界指导特征学习&＃xff0c;同时应用显式监督提取精确的语义边界&＃xff0c;使网络学习类间差别能力强大的特征&＃xff0c;进而提出 Border Network 加大特征的类间差别。Border Network 直接通过显式语义边界监督学习语义边界&＃xff0c;类似于语义边界检测任务。这使得语义边界两边的特征变得可区分。

本文的工作需要语义边界具有更多的语义含义。因此 Border Network 的设计是自下而上的。它可以同时从低级阶段获取精确的边界信息和从高级阶段获取语义信息&＃xff0c;从而消除一些缺乏语义信息的原始边界。由此&＃xff0c;高级阶段的语义信息可以逐阶段地优化低级阶段的细节边界信息。借助传统的图像处理方法&＃xff0c;比如 Canny&＃xff0c;作者可以从语义分割的 groundtruth 中获得网络的监督信号。Border Network 主要关注分离边界两边的类别的语义分割。要精确地提取语义边界&＃xff0c;需要两边的特征更加可区分&＃xff0c;而这正是作者的目的所在。

网络结构

作者使用预训练的 ResNet 作为基础网络。Smooth Network 通过在网络顶部添加全局平均池化层以获得最强的一致性&＃xff1b;接着利用 CAB 改变通道的权重进一步提升一致性。同时&＃xff0c;Border Network 通过明确的语义边界监督获得精确的语义边界并使两边的特征更易区分。由此&＃xff0c;类内特征更加一致&＃xff0c;类间特征更易区分。

对于显式的特征优化&＃xff0c;需要使用多层监督以获取更佳性能&＃xff0c;同时网络也更容易训练。Smooth Network 借助 softmax loss 监督每一阶段的上采样输出&＃xff08;全局平均池化层除外&＃xff09;&＃xff0c;而本文借助 focal loss 监督 Border Network 的输出。两个子网络在一起联合训练&＃xff0c;其 loss 通过一个参数控制两者的权重。

实验结果

本文在两个开源数据集 PASCAL VOC 2012 和 Cityscapes 上评估这一方法。数据集介绍、实现细节结果分析等从略&＃xff0c;本文将直接给出 DFN 最终的评估结果&＃xff0c;了解更多请参见原论文。

表 5&＃xff1a;DFN 在 PASCAL VOC 2012 测试集上的表现。在 MS-COCO 上预训练的方法用“&＃43;”标记。

表 6&＃xff1a;DFN 在 Cityscapes 测试集上的表现。“-”表明该方法未在发表的论文中展示结果。

结论

最后总结一下&＃xff0c;本文的贡献主要有 4 个方面&＃xff1a;

从一个新的宏观视角重新思考语义分割&＃xff0c;将其看作一项把一致的语义标签分配给一类物体&＃xff08;而不仅仅是在像素层面&＃xff09;的任务。
提出 DFN 同时解决类内一致和类间差别问题。DFN 分别在 PASCAL VOC 2012 和 Cityscapes 数据集上取得 86.2% 和 80.3% 的当前最优 mean IOU&＃xff0c;证实了该方法的有效性。
提出 Smooth Network&＃xff0c;通过全局语境和通道注意力模块提升类内一致性。
提出一种自下而上的 Border Network&＃xff0c;利用多层边界监督信号增大语义边界两边的特征变化&＃xff0c;同时优化预测的语义边界。

参考文献

[1] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam. Rethinking atrous convolution for semantic image segmentation. arXiv, 2017.

[2] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. InIEEE Conference on Computer Vision and Pattern Recognition, 2016.

[3] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv, 2017.

[4] G. Lin, A. Milan, C. Shen, and I. Reid. Refinenet: Multi-path refinement networks with identity mappings for high-resolution semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition, 2017.

[5] W. Liu, A. Rabinovich, and A. C. Berg. Parsenet: Looking wider to see better. InInternational Conference on Learning Representations, 2016.

[6] C. Peng, X. Zhang, G. Yu, G. Luo, and J. Sun. Large kernel matters–improve semantic segmentation by global convolutional network. In IEEE Conference on Computer Vision and Pattern Recognition, 2017.

推荐阅读

spring
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
io
PostgreSQL 最新动态 —— 2022年4月6日

了解 PostgreSQL 社区的最新进展和技术分享 ... [详细]

蜡笔小新 2024-12-21 14:54:10
io
双路径GAN实现侧脸到正面人脸图像的高保真合成

由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络（TP-GAN），该技术能通过单一侧面照片生成逼真的正面人脸图像，显著提升了不同姿态下的人脸识别效果。 ... [详细]

蜡笔小新 2024-12-20 17:34:05
case
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
bit
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
case
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
io
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
io
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
case
深入解析SpringMVC核心组件：DispatcherServlet的工作原理

本文详细探讨了SpringMVC的核心组件——DispatcherServlet的运作机制，旨在帮助有一定Java和Spring基础的开发人员理解HTTP请求是如何被映射到Controller并执行的。文章将解答以下问题：1. HTTP请求如何映射到Controller；2. Controller是如何被执行的。 ... [详细]

蜡笔小新 2024-12-21 18:50:52
case
Sinatra与Ramaze：选择轻量级Ruby框架时的考量

在寻找轻量级Ruby Web框架的过程中，您可能会遇到Sinatra和Ramaze。两者都以简洁、轻便著称，但它们之间存在一些关键区别。本文将探讨这些差异，并提供详细的分析，帮助您做出最佳选择。 ... [详细]

蜡笔小新 2024-12-20 11:00:15
io
京东AI创新之路：周伯文解析京东AI战略的独特之处

2018年4月15日，京东在北京举办了人工智能创新峰会，会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果，还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]

蜡笔小新 2024-12-06 22:57:11
spring
深入解析 org.apache.xmlbeans.SchemaType.getBaseEnumType() 方法及其应用

本文详细介绍了 Java 中 org.apache.xmlbeans.SchemaType 类的 getBaseEnumType() 方法，提供了多个代码示例，并解释了其在不同场景下的使用方法。 ... [详细]

蜡笔小新 2024-12-26 11:46:55
case
解决JAX-WS动态客户端工厂弃用问题并迁移到XFire

在处理Java项目中的JAR包冲突时，我们遇到了JaxWsDynamicClientFactory被弃用的问题，并成功将其迁移到org.codehaus.xfire.client。本文详细介绍了这一过程及解决方案。 ... [详细]

蜡笔小新 2024-12-25 18:48:34
io
CentOS 6.8 上安装 Oracle 10.2.0.1 的常见问题及解决方案

本文记录了在 CentOS 6.8 系统上安装 Oracle 10.2.0.1 数据库时遇到的问题及解决方法，包括依赖库缺失、操作系统版本不兼容、用户权限不足等问题。 ... [详细]

蜡笔小新 2024-12-20 17:19:23
io
深入解析 Android 系统中的 ActivityManagerService

本文详细介绍了ActivityManagerService (AMS) 的工作原理及其在Android系统中的重要角色。AMS作为system_server进程的一部分，在系统启动时加载，负责管理和协调应用程序中的Activity和服务（Service）。文章将通过具体的接口图和通信流程，帮助读者更好地理解AMS的工作机制。 ... [详细]

蜡笔小新 2024-12-18 13:07:47

手机用户2502922415_737

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章